首页> 外文OA文献 >The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems
【2h】

The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

机译:Ubuntu对话语料库:非结构化研究的大型数据集   多转对话系统

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

This paper introduces the Ubuntu Dialogue Corpus, a dataset containing almost1 million multi-turn dialogues, with a total of over 7 million utterances and100 million words. This provides a unique resource for research into buildingdialogue managers based on neural language models that can make use of largeamounts of unlabeled data. The dataset has both the multi-turn property ofconversations in the Dialog State Tracking Challenge datasets, and theunstructured nature of interactions from microblog services such as Twitter. Wealso describe two neural learning architectures suitable for analyzing thisdataset, and provide benchmark performance on the task of selecting the bestnext response.
机译:本文介绍了Ubuntu对话语料库,该数据集包含将近100万次多回合对话,总共超过700万话语和1亿个单词。这为研究基于神经语言模型的对话管理器提供了独特的资源,该模型可以利用大量未标记的数据。该数据集既具有“对话状态跟踪挑战”数据集中的会话的多回合属性,又具有来自微博服务(如Twitter)的交互的非结构化性质。我们还描述了两种适用于分析此数据集的神经学习体系结构,并为选择bestnext响应的任务提供了基准性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号